Исследовательские вопросы

Дана сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей (если книги похожи по пользовательским оценкам, то между ними в графе есть связь).

Исследовательские вопросы:

  1. Какие комиксы наиболее значимы в сети:
  1. Какие оценки ставят наиболее важным для сети комиксам?
  2. Сколько сообществ можно выявить в сети?
  3. Действительно ли связи в сети чаще возникают между комиксами одного автора?
  4. Действительно ли связи в сети чаще возникают между комиксами из одной серии (например, про Бэтмена)?

Выявление значимых вершин

Использованные меры центральности: степень (degree)

Посмотрим на вершины, у которых больше всего связей, то есть большее количество похожих на них по оценкам комиксов.

Следующие двадцать комиксов имеют наибольшие показатели центральности по степени:

##                                                         title Degree
## 1                           Y: The Last Man, Vol. 1: Unmanned    109
## 2                            Fables, Vol. 1: Legends in Exile     92
## 3                                     Saga, Vol. 1 (Saga, #1)     90
## 4                         Batman, Volume 1: The Court of Owls     90
## 5                                                    Watchmen     89
## 6                           Preacher, Volume 1: Gone to Texas     87
## 7                                   All-Star Superman, Vol. 1     87
## 8                                                Kingdom Come     85
## 9                                     Saga, Vol. 2 (Saga, #2)     79
## 10                         Batman, Volume 2: The City of Owls     77
## 11              The League of Extraordinary Gentlemen, Vol. 1     76
## 12      Y: The Last Man, Vol. 2: Cycles (Y: The Last Man, #2)     76
## 13                                           Batman: Year One     72
## 14                                    Saga, Vol. 3 (Saga, #3)     72
## 15                 Fables, Volume 2: Animal Farm (Fables, #2)     71
## 16                              Ms. Marvel, Vol. 1: No Normal     70
## 17                                 Batman: The Long Halloween     69
## 18                             Fables, Vol. 3: Storybook Love     69
## 19 Batman: The Dark Knight Returns (The Dark Knight Saga, #1)     69
## 20                     Hawkeye, Volume 1: My Life as a Weapon     69

Использованные меры центральности: центральность по посредничеству, битвинность (betweenness)

Посмотрим, какие вершины являются посредниками между группами комиксов. Для этого используем показатель центральности по посредничеству, битвинность (betweenness).

Следующие двадцать комиксов имеют наибольшие показатели центральности по посредничеству:

##                                       title Betweenness
## 1         Y: The Last Man, Vol. 1: Unmanned   24992.547
## 2                   Saga, Vol. 1 (Saga, #1)   18306.750
## 3    Hawkeye, Volume 1: My Life as a Weapon   15667.467
## 4       Batman, Volume 1: The Court of Owls   15313.505
## 5             Ms. Marvel, Vol. 1: No Normal   13979.781
## 6    Astonishing X-Men, Volume 2: Dangerous   11060.453
## 7                                  Watchmen   10422.179
## 8                                      Fray    9988.091
## 9          Fables, Vol. 1: Legends in Exile    9615.790
## 10 The Walking Dead, Vol. 01: Days Gone Bye    9227.898
## 11                          This One Summer    8669.353
## 12                All-Star Superman, Vol. 1    8111.476
## 13                  Saga, Vol. 2 (Saga, #2)    7616.976
## 14                             Kingdom Come    6726.950
## 15                         Batman: Year One    6356.257
## 16                                    Drama    6130.934
## 17        Preacher, Volume 1: Gone to Texas    5772.668
## 18      Astonishing X-Men, Volume 1: Gifted    5336.630
## 19                  Lazarus, Vol. 1: Family    4717.521
## 20       Batman, Volume 2: The City of Owls    4715.502

Использованные меры центральности: центральность по близости (closeness)

Если рассматривать вершины с наиболее короткими путями до остальных, наиболее близкие к остальным, то следующие комиксы имеют наибольшие показатели близости:

Следующие двадцать комиксов имеют наибольшие показатели центральности по посредничеству:

##                                                         title      Closeness
## 1                           Y: The Last Man, Vol. 1: Unmanned 0.000007411855
## 2                                     Saga, Vol. 1 (Saga, #1) 0.000007409603
## 3                                                    Watchmen 0.000007408779
## 4                            Fables, Vol. 1: Legends in Exile 0.000007406200
## 5                      Hawkeye, Volume 1: My Life as a Weapon 0.000007405652
## 6                                            Batman: Year One 0.000007405323
## 7                                     Saga, Vol. 2 (Saga, #2) 0.000007404555
## 8                                    Batman: The Killing Joke 0.000007404226
## 9                         Batman, Volume 1: The Court of Owls 0.000007404226
## 10 Batman: The Dark Knight Returns (The Dark Knight Saga, #1) 0.000007403733
## 11                  Locke & Key, Vol. 1: Welcome to Lovecraft 0.000007403459
## 12                          Preacher, Volume 1: Gone to Texas 0.000007401815
## 13                                    Saga, Vol. 3 (Saga, #3) 0.000007401651
## 14                              Ms. Marvel, Vol. 1: No Normal 0.000007400774
## 15                   The Walking Dead, Vol. 01: Days Gone Bye 0.000007400062
## 16                                    Saga, Vol. 4 (Saga, #4) 0.000007400062
## 17                                               Kingdom Come 0.000007400062
## 18                                  All-Star Superman, Vol. 1 0.000007399953
## 19                        Astonishing X-Men, Volume 1: Gifted 0.000007399953
## 20      Y: The Last Man, Vol. 2: Cycles (Y: The Last Man, #2) 0.000007399624

Из всех комиксов наибольшие показатели по всем мерам центральности имеет комикс “Y: The Last Man, Vol. 1: Unmanned”. 12 из выше перечисленных комиксов являются важными и занимают места в топ-20 по всем мерам центральности:

##                                     title
## 1       Y: The Last Man, Vol. 1: Unmanned
## 2        Fables, Vol. 1: Legends in Exile
## 3                 Saga, Vol. 1 (Saga, #1)
## 4     Batman, Volume 1: The Court of Owls
## 5                                Watchmen
## 6       Preacher, Volume 1: Gone to Texas
## 7               All-Star Superman, Vol. 1
## 8                            Kingdom Come
## 9                 Saga, Vol. 2 (Saga, #2)
## 10                       Batman: Year One
## 11          Ms. Marvel, Vol. 1: No Normal
## 12 Hawkeye, Volume 1: My Life as a Weapon

Визуализация

Визуализируем сеть, учитывая различные меры центральности, но перед этим, посмотрим на некоторые параметры в имеющемся датасете.

Серии книг

Посмотрим, влияет ли серия книг на образование связей.

На графе видно, что книги из одной серии часто располагаются рядом друг с другом, то есть образуют связи и похожи друг на друга, но есть и исключения. Возможно, те серии, которые выбиваются из общего тренда, являются экспериментными, например, когда вводят нового персонажа и рейтинги падают или взлетают. Тем не менее, хоть и есть похожие оценки, они не всегда идентичны.

Посмотрим на показатели ассортативности.

## [1] 0.1987977

Коэффициент ассортативности равен 0.1930176 ,то есть связи склонны формироваться у комиксов одной серии, но эта склонность невелика.

## [1] 0

P-value = 0 показывает, что это разделение маловероятно получилось случайно. Связи склонны формироваться у комиксов одной серии, но эта склонность невелика

Похожи ли оценки на комиксы одного автора?

Посмотрим, похожи ли оценки на комиксы у одного и того же автора, существует ли связь между ними. Для этого посмотрим каковы связи в комиксах у 11 авторов с наибольшим количеством представленных комиксов (16 комиксов и больше)

Большинство текстов одного и того же автора связаны между собой, то есть у одного автора одинаковые оценки, но есть и исключения, в том числе образование групп комиксов с похожими оценками.

Посмотрим на расположение на всем графе.

Часто комиксы одного и того же автора образуют группы, то есть связи между ними “притягивают” их друг к другу, их оценки похожи, но существуют несколько групп одного автора, то есть часто комиксы похожи друг на друга, но их оценки не всегда одинаковые.

Посмотрим на показатели ассортативности.

## [1] 0.2992721

Коэффициент ассортативности равен 0.2992721, то есть связи склонны формироваться у комиксов одного автора, но эта склонность невелика.

## [1] 0

P-value = 0 показывает, что это разделение маловероятно получилось случайно. Связи склонны формироваться у комиксов одного автора, но эта склонность невелика.

Визуализация центральностей

Центральность по степени показана размером, серии книг показаны цветом

Центральность по степени показана размером (чем больше размер, тем больше показатель центральности), авторство показано цветом

Значимых паттернов в отношении определенного автора или серии комиксов в центральности по степени не наблюдается.

Центральность по посредничеству показана размером, серии книг показаны цветом

Центральность по посредничеству показана размером (чем больше размер, тем больше показатель центральности), авторство показано цветом

Значимых паттернов в отношении определенного автора или серии комиксов в центральности по посредничеству не наблюдается.

Центральность по близости показана цветом

Распределение оценок и количества отзывов

Посмотрим на распределение оценок и количества отзывов во всем датасете и каковы они в наиболее важных вершинах (взяты 12 вершин, которые входят в топ-20 по разным показателям центральности).

Распределение оценок и количества отзывов во всем датасете:

Распределение оценок и количества отзывов наиболее важных вершин:

Выводы

“Y: The Last Man, Vol. 1: Unmanned” является самым важным по всем всем мерам центральности и 12 комиксов являются наиболее важными для сети по разным мерам центральности и занимают место в топ-20. По количеству связей, то есть сколько существует комиксов с похожей оценкой (degree), лидируют “Y: The Last Man, Vol. 1: Unmanned”, “Fables, Vol. 1: Legends in Exile”, “Saga, Vol. 1 (Saga, #1)”, “Batman, Volume 1: The Court of Owls”, у которых их 90 и более. По посредничеству, центральными комиксами являются “Y: The Last Man, Vol. 1: Unmanned”, “Saga, Vol. 1 (Saga, #1)”, “Hawkeye, Volume 1: My Life as a Weapon”, “Batman, Volume 1: The Court of Owls”, которые являются посредниками между другими комиксами. Наиболее важные комиксы по близости: “Y: The Last Man, Vol. 1: Unmanned”, “Saga, Vol. 1 (Saga, #1)”, “Watchmen”, “Fables, Vol. 1: Legends in Exile”. После ознакомления с такими комиксами, пользователь сможет быстрее дойти от одной вершины до другой во всей сети. Можно увидеть, что самые важные в сети комиксы имеют оценку около 4-4.5, в то время как количество отзывов на них разнится.

Оценки комиксов одного автора или из одной серии часто похожи друг на друга, образуя группы с похожими оценками, но оценки не всегда идентичны, поэтому существует несколько групп одного автора или одной серии. Причиной такой разницы могут быть изменения в комиксах (введение новых персонажей, сюжетных линий, др), которые влияют на оценки пользователей. Ассортативность небольшая, что указывает на то, что связь склонна образовываться между комиксами одной серии или автора, но это не является ключевым фактором образования сети.

Выявление групп книг

Использованные меры выделения сообществ: Fast-Greedy

Метод Fast-Greedy – иерархический подход, при котором при вершины представляют собой отдельные сообщества, и объединяются таким образом, чтобы это привело к наибольшему возрастанию модулярности.

Разделение по такому признаку приводит к выделению 28 сообществ, модулярность равна 0.66, что показывает что сеть разделили на сообщества довольно хорошо.

Использованные меры выделения сообществ: Walktrap

Метод Walktrap - подход, основанный на случайных путях (больше шансов, что путь будет чаще оставаться внутри сообщества и только иногда выходить за его пределы).

Разделение по такому признаку приводит к выделению 41 сообщества, модулярность равна 0.7, что показывает что сеть хорошо разделили на сообщества.

Визуализация

Визуализируем полученные сообщества.

Сообщества, полученные методом Fast-Greedy

Сообщества, полученные методом Walktrap

Так как сеть у нас сформирована по похожести комиксов по оценкам пользователей (если комиксы похожи по пользовательским оценкам, то между ними в графе есть связь), то выделенные сообщества, предположительно, разделяют граф на группы со схожими или идентичными оценками. В первом графе групп 28, а во втором - 41.

Сообщества Walktrap

Посмотрим, какие факторы могли повлиять на разделение на сообщества. Возьмем сообщества: полученные методом Walktrap, так как модулярность в этом случае больше, и посмотрим на 4 сообществ: 1, 10, 19, 32 (номера взяты случайно).

Как мы видим, сообщества, могли бы быть выделены по принципу близкой оценки, но это не всегда так, и оценки часто пересекаются в разных сообществах.

Посмотрим, влияют ли авторство и серия на разбиение сообществ на примере тех же сообществ.

Как можно увидеть, некоторые сообщества состаят из комиксов премущественно одной серии или одного авторства. Из этого можно сделать вывод, что на рспределение по сообществам влияло много факторов, включая связи по рейтингу, авторству, сериям и, возможно, другим признакам, которые не были здесь рассмотрены.

Выводы

С помощью методов Fast-Greedy и Walktrap были выявлены 28 и 41 сообщества соответственно. Так как сеть у нас сформирована по похожести комиксов по оценкам пользователей (если комиксы похожи по пользовательским оценкам, то между ними в графе есть связь), то выделенные сообщества разделяют граф на группы со схожими или идентичными оценками, но также играют роль и другие факторы, такие как, например, авторство или серия комиксов.

Общие выводы

Проанализировав сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей, были получены следующие выводы: